AN IMAGE IS WORTH 16X16 WORDS- TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE

Posted 2025-01-09Updated 2026-03-23Notea few seconds read (About 71 words) visits

AN IMAGE IS WORTH 16X16 WORDS- TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE

https://www.youtube.com/watch?v=j3VNqtJUoz0&t=16s

核心思想：

将图像分为patches, 线性映射, 再加上图片的position embeding来输入transformer encoder
额外使用一个cls token用于占位（ViT的输出就是这个cls input token对应的output token）

AN IMAGE IS WORTH 16X16 WORDS- TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE

http://chen-yulin.github.io/2025/01/09/[OBS]Reconstruct Anything-Semantic-AN IMAGE IS WORTH 16X16 WORDS- TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE/

Author

Chen Yulin

Posted on

2025-01-09

Updated on

2026-03-23

Licensed under

#Research-paper Transformer CV ViT

Comments